2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

Update: 2025-09-15

Description

本期的 14 篇论文如下：

[00:25 ] 📚 IntrEx: A Dataset for Modeling Engagement in Educational Conversations（IntrEx：面向教育对话中参与度建模的数据集）

[01:02 ] 📏 The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs（“收益递减的幻觉”：衡量大语言模型的长时程执行能力）

[01:54 ] 🧩 X-Part: high fidelity and structure coherent shape decomposition（X-Part：高保真且结构一致的三维形状分解）

[02:33 ] 🖼 InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis（InfGen：分辨率无关的可扩展图像合成新范式）

[03:04 ] 🔍 HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering（HANRAG：面向多跳问答的启发式精准抗噪检索增强生成方法）

[03:50 ] 🎙 VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions（VStyle：基于语音指令的语音风格自适应基准）

[04:44 ] 🌸 FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies（FLOWER：以高效视觉-语言-动作流策略普及通用机器人策略）

[05:20 ] 🎨 Inpainting-Guided Policy Optimization for Diffusion Large Language Models（面向扩散大语言模型的基于文本补全引导的策略优化方法）

[05:58 ] 🤖 Virtual Agent Economies（虚拟代理经济）

[06:28 ] 📈 QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading（QuantAgent：面向高频交易的价格驱动多智能体大语言模型框架）

[07:02 ] 🧪 MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools（MCP-AgentBench：基于MCP中介工具的通用语言智能体真实性能评测）

[07:41 ] 🎨 Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation（精准上色：连接感知色彩空间与文本嵌入以提升扩散生成质量）

[08:31 ] 🦎 LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios（LoFT：面向开放世界长尾场景的参数高效半监督微调方法）

[09:13 ] 🗞 CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China（CMHG：中国少数民族语言新闻标题生成数据集与评测基准）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.10.02 | MCTS破局RLVR瓶颈；GEM开源智能体训练场

2025-10-0210:32

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025-09-2611:17

2025.09.25 | 视频模型零样本全能；隐式思维链省token提效

2025-09-2507:59

2025.09.24 | 阿语OCR刷新指标；无标注RL涨分

2025-09-2411:36

2025.09.23 | 少78条示范让AI飙73.5%；免掩膜视频插主体超Pika

2025-09-2311:18

2025.09.22 | 有向图驱动代码生成；双通道视觉统一模型

2025-09-2209:35

【周末特辑】9月第4周最火AI论文 | OmniWorld打造4D数据工厂；WebWeaver让AI边搜边写

2025-09-2013:21

2025.09.19 | 跨平台GUI模型刷榜；FlowRL分布匹配提推理

2025-09-1911:38

2025.09.18 | FP8压缩+翻译微调低成本炼阿语大模型；2B-8B小模型洗数据硬刚GPT-4o

2025-09-1810:41

2025.09.17 | WebWeaver框架提升可信长文报告；Agentic预训练扩展智能体系统

2025-09-1708:01

2025.09.16 | OmniWorld建4D数据底座；UI-S1半在线驯界面代理

2025-09-1609:00

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

2025-09-1510:06

【周末特辑】9月第3周最火AI论文 | 群智RL提速大模型；小VLA零预训练控机械

2025-09-1414:35

2025.09.12 | HuMo多模态控人视频；SimpleVLA-RL强化升效

2025-09-1210:34

2025.09.11 | 强化学习提升推理能力；奖励缩放优化视觉生成

2025-09-1105:31

00:00

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

#box-pro-ellipsis-175948217007710{-webkit-line-clamp:2;}2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈

2025.09.15 | 数据集升级测互动；模型大小非长程瓶颈